policy gradient Tag

策略梯度

在学习大模型的训练过程中发现在微调之后需要用到强化学习，常见的方法如近端策略优化（PPO）。在查询资料后发现在没有系统性学习强化学习的基础知识的前提下想直接学习PPO会非常困难。于是我决定先放下大模型训练的学习，转而学习强化学习。在查询了相关教程后，发现了两本比较适合入门的书籍，都有配套的在线教程。分别是[Easy RL 强化学习教程](https://datawhalechina.git ...